强化学习 (RL) 已证明可成功实现模拟 1 型糖尿病 (T1D) 患者的胰岛素自动给药,但目前无法融入患者的专业知识和偏好。这项工作引入了 PAINT(T1D 胰岛素控制偏好适应),这是一个原始的 RL 框架,用于从患者记录中学习灵活的胰岛素给药政策。PAINT 采用基于草图的方法进行奖励学习,其中过去的数据用连续的奖励信号注释以反映患者的期望结果。标记数据训练奖励模型,为新型安全约束离线 RL 算法的行为提供信息,该算法旨在将行为限制在安全策略内并通过滑动比例实现偏好调整。计算机模拟评估表明,PAINT 通过简单标记期望状态实现了常见的血糖目标,与商业基准相比,将血糖风险降低了 15%。动作标签还可用于整合患者的专业知识,展示在患者指导下预先安排进餐(餐后时间范围内增加 10%)和解决某些设备错误(错误后方差为 -1.6%)的能力。这些结果在现实条件下成立,包括样本有限、标签错误和患者内部差异。这项工作说明了 PAINT 在现实世界的 T1D 管理中的潜力,以及更广泛地说,在安全约束下需要快速和精确偏好学习的任何任务中的潜力。
主要关键词